Big Data and Analytics Data Filtering, Sorting, এবং Subsetting গাইড ও নোট

395

আর প্রোগ্রামিং ভাষায় ডেটা বিশ্লেষণের অন্যতম গুরুত্বপূর্ণ দিক হল ডেটা ফিল্টারিং, সোর্টিং এবং সাবসেটিং। এগুলি ডেটাকে সঠিকভাবে প্রক্রিয়া করতে এবং প্রয়োজনীয় অংশ নির্বাচন করতে সহায়তা করে। এই টিউটোরিয়ালে আমরা দেখব কিভাবে ডেটা ফিল্টার করা, সোর্ট করা এবং সাবসেট তৈরি করা হয়।


১. Data Filtering (ডেটা ফিল্টারিং)

Data Filtering হল একটি প্রক্রিয়া যার মাধ্যমে নির্দিষ্ট শর্ত অনুযায়ী ডেটা থেকে প্রয়োজনীয় তথ্য নির্বাচিত করা হয়। R-এ ডেটা ফিল্টার করার জন্য সাধারণত subset() ফাংশন বা dplyr প্যাকেজের filter() ফাংশন ব্যবহার করা হয়।

উদাহরণ ১: subset() ফাংশন ব্যবহার করা

# একটি ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Salary = c(50000, 60000, 70000, 80000)
)

# Age > 30 হওয়া ব্যক্তিদের ফিল্টার করা
filtered_data <- subset(data, Age > 30)
print(filtered_data)

এখানে subset() ফাংশন ব্যবহার করে আমরা Age > 30 শর্তে ডেটা ফিল্টার করেছি।

উদাহরণ ২: dplyr প্যাকেজের filter() ফাংশন ব্যবহার করা

# dplyr প্যাকেজ লোড করা
library(dplyr)

# Age > 30 হওয়া ব্যক্তিদের ফিল্টার করা
filtered_data <- data %>% filter(Age > 30)
print(filtered_data)

এখানে filter() ফাংশন ব্যবহার করে আমরা Age > 30 শর্তে ডেটা ফিল্টার করেছি।


২. Data Sorting (ডেটা সোর্টিং)

Data Sorting হল ডেটাকে একটি নির্দিষ্ট ক্রমে সাজানোর প্রক্রিয়া। R-এ ডেটা সোর্ট করার জন্য order() ফাংশন ব্যবহৃত হয়। order() ফাংশন ডেটাকে বৃদ্ধির (ascending) বা হ্রাসের (descending) ক্রমে সাজাতে সহায়তা করে।

উদাহরণ ১: order() ফাংশন ব্যবহার করা

# ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Salary = c(50000, 60000, 70000, 80000)
)

# Salary এর ভিত্তিতে ডেটা সোর্ট করা (ascending)
sorted_data <- data[order(data$Salary), ]
print(sorted_data)

এখানে, order() ফাংশন ব্যবহার করে Salary কলামের ভিত্তিতে ডেটা সোর্ট করা হয়েছে।

উদাহরণ ২: হ্রাসমূলক সোর্টিং (Descending Sorting)

# Salary এর ভিত্তিতে ডেটা সোর্ট করা (descending)
sorted_data_desc <- data[order(data$Salary, decreasing = TRUE), ]
print(sorted_data_desc)

এখানে, decreasing = TRUE ব্যবহার করে Salary কলামের ভিত্তিতে ডেটা হ্রাসমূলক ক্রমে সাজানো হয়েছে।


৩. Data Subsetting (ডেটা সাবসেটিং)

Data Subsetting হল ডেটা থেকে শুধুমাত্র কিছু নির্দিষ্ট অংশ নির্বাচন করার প্রক্রিয়া। আর-এ ডেটা সাবসেট করার জন্য সাধারণত [ ] স্লাইসিং অপারেটর, subset() ফাংশন এবং dplyr প্যাকেজের select() ফাংশন ব্যবহার করা হয়।

উদাহরণ ১: [ স্লাইসিং অপারেটর ব্যবহার করা

# ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Salary = c(50000, 60000, 70000, 80000)
)

# প্রথম 2 সারির সাবসেট নেওয়া
subset_data <- data[1:2, ]
print(subset_data)

এখানে, আমরা data[1:2, ] ব্যবহার করে প্রথম ২টি সারি সাবসেট করেছি।

উদাহরণ ২: নির্দিষ্ট কলাম নির্বাচন করা

# Age এবং Salary কলাম সাবসেট করা
subset_columns <- data[, c("Age", "Salary")]
print(subset_columns)

এখানে, আমরা data[, c("Age", "Salary")] ব্যবহার করে Age এবং Salary কলামগুলির সাবসেট নিয়েছি।

উদাহরণ ৩: dplyr প্যাকেজের select() ফাংশন ব্যবহার করা

# dplyr প্যাকেজ লোড করা
library(dplyr)

# Age এবং Salary কলাম সাবসেট করা
subset_data <- data %>% select(Age, Salary)
print(subset_data)

এখানে select() ফাংশন ব্যবহার করে Age এবং Salary কলামগুলোর সাবসেট নেওয়া হয়েছে।


সারাংশ

আর প্রোগ্রামিং ভাষায় ডেটা ফিল্টারিং, সোর্টিং এবং সাবসেটিং হল ডেটা প্রক্রিয়াকরণের গুরুত্বপূর্ণ ধাপ। Data Filtering করার জন্য subset() বা dplyr প্যাকেজের filter() ফাংশন ব্যবহার করা হয়। Data Sorting করার জন্য order() ফাংশন ব্যবহার করা হয়, যা ডেটাকে বৃদ্ধির বা হ্রাসের ক্রমে সাজায়। Data Subsetting করার জন্য [ ] স্লাইসিং অপারেটর বা dplyr প্যাকেজের select() ফাংশন ব্যবহার করা হয়, যা নির্দিষ্ট অংশের ডেটা নির্বাচন করতে সহায়তা করে। এই টুলগুলোর মাধ্যমে ডেটার বিশ্লেষণ এবং প্রক্রিয়াকরণ সহজ এবং কার্যকরী হয়।

Content added By
Promotion

Are you sure to start over?

Loading...